가. 데이터 이해에서 데이터 준비 단계로 갈 수 있다. 나. 모델링 단계에서 학습용/테스트용 데이터를 사용해 과소 적합을 확인한다. 다. 비즈니스 이해, 데이터 이해 간 피드백이 가능하다. 라. 평가에서 적합하면 바로 프로젝트 투입이 가능하다.
전사 차원의 모든 데이터에 대하여 정책 및 지침, 표준화, 운영조직 및 책임 등의 표준화된 관리체계를 수립하고 운영을 위한 프레임워크 및 저장소(Repository)를 구축하는 것을 말한다. 마스터 데이터, 메타 데이터, 데이터 사전은 ( )의 중요한 관리 대상이다.
가) 최소 지지도를 설정한다. 나) 개별 품목들 중에서 최소 지지도를 넘는 모든 품목들을 찾는다. 다) 이전 단계에서 찾은 개별 품목만을 이용하여 최소 지지도를 넘는 두 가지 품목을 찾는다. 라) 이전 단계에서 찾은 품목의 집합을 결합하여 최소 지지도를 세가지 품목의 집합을 찾는다. 마) 반복적으로 수행하여 최소 지지도가 넘는 반발 품목을 찾는다.
여러 개의 붓스트랩 자료를 생성하고 각 붓스트랩 자료에 예측 모형을 만든 후 결합하여 최종 예측 모형을 만드는 방법이다.
점 64개 1번째 점이 0.12에 근접, 2번째 점이 0.07에 근접, 7,8번째에서 기울기 감소, 나머지 60까지 점은 밀집되게 나열
클러스터 안의 데이터들이 다른 클러스터와 비교해 얼마나 비슷한가를 나타내는 군집분석 타당성 평가지표로 1에 가까울수록 군집화가 잘 되었다고 판단한다.
지도 학습에서 신경망을 학습 시키는 방법으로, 출력층에서 제시한 값에 대해, 실제 원하는 값으로 학습하는 방법으로 사용되고, 동일 입력층에 대해 원하는 값이 출력되도록 개개의 weight를 조정하는 방법으로 사용되는 알고리즘이다.